查看原文
科技

从头设计抗体 | 基于结构的抗体设计的奠基之作?

刘安吉 北京生物结构前沿研究中心 2024-05-21

星标,再也不怕错过更新!方法见文末动图。

2024年3月18日,华盛顿大学蛋白质设计研究所的David Baker课题组在BioRxiv上发表了题为《Atomically accurate de novo design of single-domain antibodies》的预印本文章,通过蛋白质设计的方法,设计出了单结构域抗体,并通过冷冻电镜解析了抗体与抗原的结合,达到了原子级别的准确度。

本文将从三个方面,详细讲解这篇文章的背景、方法以及结果。有趣的是,文章的标题也可以按照这种方法进行划分。


• Single-domain antibodies表明了本文的背景,也就是“做什么”;

de novo design表明了本文的方法,也就是“怎么做”;

• Atomically accurate表明了本文的结果,也就是“做的多好”。



一、背景(“做什么”)

首先,我们要明确这篇文章的研究对象。从题目中可以看出,本文研究的是单结构域抗体(single-domain antibodies)。对于这一部分,我们需要回答两个问题:为什么要研究抗体以及要研究哪种抗体。



抗体药物现在在工业界有着举足轻重的地位。截止2022年,已经有超过160种抗体药物经过了审批。在左图中,也可以看到,抗体药物的研发在最近几年增长势头迅猛。在2021年,抗体药物已经占据北美药物份额的37.3%(见右图),并且据估计,在5至10年内,整个抗体药物的市场将达到4450亿美元1


虽然这个领域规模如此大,而且有利可图,但是现在抗体药物的研发过程,还是极度依赖动物学免疫实验,以及抗体库筛选。但是,这种研发过程,会耗费非常多的人力、物力、财力,并且并不一定会产生阳性结果。



其实抗体药物分很多种,其中大部分都是传统的抗体,即包含两条重链、两条轻链的抗体(如上图中下半部分的图)。然而,还可以对传统抗体做改造,产生新的抗体药物类型,包括上图中的a-e类。本文关注的主要是片段类的抗体,包括单链可变片段(Single-chain fragments or scFv)和VHH1。其中VHH是只包含重链中可变区(V)的抗体片段。因为抗体与抗原结合最重要的区域就是V区中的CDR区域(Complementation-determining region),而VHH因为是包含CDR区域的最小单位,所以也是本文的重点研究对象。



二. 方法(“怎么做”)

本文使用的方法主要是蛋白质的从头设计。在这方面,有两个问题需要考虑,第一是一般的蛋白质设计流程是怎么样的,第二是作者如何将一般的蛋白质设计流程特化到抗体设计领域。



首先是一般的蛋白质设计流程。通常来说,首先会生成蛋白质的骨架结构,再通过蛋白质的骨架设计序列。这个过程会产生数量极多的设计,不可能每个设计都进行实验验证,所以还需要对生成的设计进行筛选,而这个筛选通常使用的是结构预测方法2

 

 

对于蛋白质骨架设计分各种使用场景有不同的设计方式。早期的的骨架设计是“按需定制”,给模型想要的二级结构,例如几条螺旋,几条折叠,然后根据能量或者从已有蛋白质数据库中采样得到可能的骨架结构。


同时,David Baker采取了不同的方法。他们聚焦于起主要作用的motif区域,根据已有的功能位点进行inpainting或者幻化(hallucination)设计,这两种方式可以根据已有的功能位点即得到生成后的结构也会得到生成后的序列信息3


幻化是给定功能位点处的氨基酸类型以及结构,设计出能包含有该功能位点的整体蛋白质的结构。根据motif进行蛋白质设计:Inpainting是遮住部分motif部分,单独进行结构生成。

 


就在去年,基于深度学习的蛋白质结构生成有了新突破,上图列举了当前具有代表性的三种方法,分别是RFdiffusion,Genie和Chroma。这三种方法都采用了去噪扩散概率模型 (Denoising Diffusion Probabilistic Models),其中RFdiffusion(发表于Nature)在RoseTTAFold2的基础上做了微调(fine-tuning),Genie(发表于ICML)则采用了AlphaFold2的思想,比如这里的equivariant decode用到的就是AF里的IPA的架构,Invariant encoder采用了一部分的evoformer的思想,输入一个frame骨架结构,通过去噪去优化骨架结构,不停的去噪,得到一个新的蛋白质的结构。Chroma既能实现骨架的生成,还可以根据生成的结构去做序列的设计,既能产生全新序列的蛋白,也能产生全新结构的蛋白。



本文采用的骨架生成方法是RFdiffusion(David Baker组自己开发的工具)。RFdiffusion在RoseTTAFold的基础上做了微调(上图a中间部分),加入了扩散模型(上图a中上部),使得模型能够在没有序列输入的情况下,生成蛋白质结构2。


RFdiffusion能做到的事情如上图b所示。起点是随机噪音,但因为在训练时,模型已经学到了如何从噪音中恢复结构,所以可以一步一步从噪音中生成结构。同时,给定不同的条件(对称噪音、结合靶点、motif)可以对不同任务产生对应的蛋白质(对称寡聚体、结合蛋白、motif scaffolding)。


这篇文章的主要做的工作如下:

-  针对抗体设计,微调RFdiffusion

-  针对抗体设计的验证,微调RosseTTAFold2

-  设计并通过生化手段验证设计的VHH抗体

-  通过冷冻电镜解析了设计的VHH抗体与病毒糖蛋白结合的高分辨率结构



首先,原始版本的RFdiffusion设计结合蛋白几乎完全依赖与目标表位相互作用的二级结构(α螺旋或β片段),需要预先进行指定,因此无法准确从头(de novo设计抗体,需要进行微调。微调RFdiffusion需要满足:(1)标靶任何特定的表位;(2)聚焦于CDR loop区域的采样;(抗体的其他部分不考虑)(3)针对抗原表位,允许所设计的抗体能够作为刚体,采样不同的位置。


研究人员做了实验,验证了经过微调的RFdiffusion在framework recapitulation和hotspot targeting任务上都比原始的RFdiffusion表现好太多(A、B图,纵轴为RMSD,越小越好),并且经过微调的RFdiffusion可以忽略能量的考虑,结合在任何特定的表位(C图),和先前提到的要求一样。



落实到具体的微调方法,文章作者从含有超过20万结构的PDB数据库中,找到了大约8100个抗体结构,并在这些抗体结构上做了微调。在微调时,骨架保持不变,只调整CDR区域。整个扩散过程如图A所示,为了针对不同类型的抗体,作者也在输入时进行了控制(图B),并且为了增加抗体-靶标对接的多样性,也引入了Invariant template input。最后,也引入了“热点”(hotspot)机制,使得用户可以自定义抗体结合的位点,模型也可以只针对这些位点进行抗体设计(图D)。



作者并没有对序列设计的模块做更改,还是用的ProteinMPNN对序列进行设计。但是对模型筛选的模块做了更改

 

 

因为AlphaFold2的出色预测表现,过往的蛋白质设计,几乎都使用AlphaFold2来预测设计出的序列所对应的结构,并与理想的设计结构比较,做自洽验证,并以此对设计出的序列进行筛选 。但是,因为AlphaFold2在抗原抗体复合体的预测问题上表现不佳,所以无法使用AlphaFold2做抗体设计的自洽验证。因此,必须使用其它方法做计算验证。


作者选择针对抗体结构,微调RoseTTAFold2(RF2)的结构预测网络:微调的RF2必须能准确预测CDR区域的结构,并且准确预测抗体相对于标靶区域的取向。


上图中右侧是微调RoseTTAFold的结果,发现微调过的RF2可以很好的预测抗原抗体复合体,并且能够很好的区分真实结构和decoy结构(上图C、D)。

 


作者还把微调过的RF2与抗体结构预测领域最好的IgFold进行了对比,发现前者在抗体的单体结构预测上精度略高,尤其是在CDR区域的预测(上图左)。


同时,作者还测试了特异性。他们在四个抗原靶标上做了生成结构的预测,发现微调过的RF2能够再现RFdiffusion设计的结构,也证明了它对VHH的特异性。



最后进入到实验验证环节。



首先,作者团队做了生化验证,从选择一种被广泛使用的人源纳米抗体框架(humanized VHH framework)h-NbBcII10FGLA作为VHH的设计起点,设计VHH能与以下疾病相关的标靶相结合:

- 艰难梭菌毒素BClostridium difficile toxin B, TcdB)

- 流感H1血凝素(influenza H1 hemagglutinin, HA)

- 呼吸道合胞病毒(respiratory syncytial virus, RSV)位点I和III

-  新冠病毒受体结合域(SARS-CoV-2 receptor binding domain, Covid RBD)

-  白细胞介素-7受体α(IL-7Rɑ)


在设计过程中,先用微调过的RFdiffusion生成蛋白质骨架,再用用ProteinMPNN设计CDR loop的序列;而后用微调过的RF2预测设计序列的结构,并过滤设计的序列。


对于每一个靶标,都生成了9000个蛋白质序列。上图中A-D表明了四个特异性最强的抗体结构,亲和力分别是kd=1.4um(RSV Site III),kd=78nm(Influenza HA),kd=5.5um(SARS-CoV2-RBD),kd=262um(TcdB)。



三、结果(做多好)

随后,他们将结合亲和力最高的Influenza HA VHH抗体,与抗原结合的复合体结构,利用冷冻电镜的方法,进行了原子分辨率的解析。

 

 

从2D分类中就可以看到有设计的VHH抗体(A),并且在最终解析的3.0Å结构中也发现了对应的抗体(B)。搭好模型后,可以看到抗体与蛋白的结合位点(C)。图D-F展示了解析的结构与真实结构的对比,可以看到解析的结构和真实结构非常接近。同时虽然设计的抗体和已知的VHH抗体结合在同一个位点,但结构并不相同,作者认为他们的模型可以产生“全新”抗体(如下图所示)。

 

 


讨论


本文完成了1个任务:抗体的从头设计。


本文相较于传统的动物免疫和抗体库筛选,有2个优势:更快,更便宜。


本文能够取得比较好的效果,有3个原因:利用了结构信息进行优化,可以探索全部的CDR区域以及相较于其他的深度学习方法,有更好的结构上的假设。


本文未来可以在4个方向进行提高:现在设计的蛋白亲和力比较低。而且成功率较低。未来还可以使用更高级的模型(如RFAA)。未来还可以对非糖原子进行抗体设计(目前全部是对于蛋白质进行抗体设计)。

这篇文章自称可以成为基于结构的抗体设计的奠基之作,但因为这篇文章还只是预印本,后续可能需要经过进一步修改,所以这个结论可能还为时尚早。


但是我们还是可以从这篇文章中学到很多。从计算的角度来说,如何将已有的模型像本文这样的通过微调应用于某个下游领域,值得我们学习。另外,如何将已有的工具合理利用,搭建一个合适的pipeline,也是需要向这篇文章学习的。


从实验的角度来说,这篇文章的实验技巧值得学习,同时未来如果这篇工作开源,我们也可以尝试使用这个工具设计抗体。


原文链接:

https://doi.org/10.1101/2024.03.14.585103


供稿 | 刘安吉

审核 | 孔方

责编 | 囡囡

设计 / 排版 | 可洲 雨萱




微信号:FRCBS-THU

因扫码入群人员已满,可扫码添加中心官方微信号,管理员邀请入群

参考文献

参考文献

1.   Lyu, X. et al. The global landscape of approved antibody therapies. Antib. Ther. 5, 233–257 (2022)


2.   Watson, J. L. et al. De novo design of protein structure and function with RFdiffusion.Nature 620, 1089–1100 (2023).


3.   Wang, J. et al. Scaffolding protein functional sites using deep learning. Science 377,387–394 (2022).



精彩回顾

精彩回顾



特别提示

微信公众号又双叒叕更改推送机制了,不是星标的订阅号,收到推送内容的时间会有延迟,甚至根本无法收到最新推送!不想错过FRCBS最新资讯,快来设为星标吧!

方法超简单,只需3秒钟!


点击上方卡片

关注我们吧


THE END

我知道你“在看”

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存